Версионирование данных 


Теория и практика | =. 


Максим Тремпольцев 


++ ug 
HighLoad++ 4 : 
(HL) BecHa 2021 ій 


Data Warehouse (ОМУН) 


Термин появился в 1988 году после 
публикации Барри Девлином (Barry Devlin) и 
Полом Мерфи (Paul Murphy) статьи в ВМ 
Systems Journal с описанием архитектурной 
модели для потоков данных из различных 
источников в систему поддержки принятия 
решений (Decision Support System, 055). 
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Что такое DWH? 


Хранилише данных служит для 
централизации и консолидации больших 
объемов исторических данных из различных 
ИСТОЧНИКОВ. 


https://www.oracle.com/ru/database/what-is-a-data-warehouse/ m] = 
ei 
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Data sources Data warehouse Data marts 


Operational 
system 


см Extract, 
Transform, — 3 
ӨР Load 
zer 
Plain files 


INS 


Users 


От ядра инвестиционного бизнеса 
Альфа-Банка... 


...ДО Tarantool Data Grid 


і 
https://www.tarantool.io/ru/datagrid/ [m] 
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Slowly Changing Dimension (SCD) 


Термин введен Ральфом Кимбелом (Ralph 
Kimball) в 1996 году в книге «The Data 
Warehouse Toolkit». 
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Что такое SCD? 


Механизм отслеживания изменений в 
данных. 


5 Применяется, если данные меняются не очень часто и не по расписанию. 
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Типы SCD 


Упоминаєтся 8 типов 


Базовых типов 5 


Остальные типы являются комбинацией 
трех базовых типов 


Нет самого правильного/лучшего типа 
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SCD Туре 0 


- Оригинал не изменяется 


- Как правило, применяется для хранения 
фактов, информации о событиях и т.д. 
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SCD Туре 1 


Хранится актуальное значение 


за о ОИ 
de4c8987 Bobby Brown bb@gmail.com 
+с056042 Jessica Gray jg@gmail.com 
за me еп O 
de4c8987 Bobby Brown bb@gmail.com 
+с056042 Jessica Gray jgray@mail.com 
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SCD Туре 1 
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format = ( 

name = 'id', type = 'string' ), 
name = "пате", type = 'string' ), 
пате = 'ета11', type = 'string' ) 
= box.schema.space.create(name) 
format(format) 


create_index('id', ( parts = {-'id'-}}) 


1 \ HighLoad 


SCD Туре 1 
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]оса1 Жипсбіоп 


get_last(self, 14) 


return: self.space:get({-id-}) 


end 


local. function 


self.space: 


end 


local. function 


self.space: 


end 


insert(self, profile) 
replace(flatten(profile) ) 


update(self, id, updates) 
update(id, updates) 
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SCD Туре 1 


+ Нет избыточности 
+ Простота 


- Не сохраняется история 
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5СО Туре 2 


Добавляєтся новая запись 


а [version СС email 
de4c8987 01.05.2021 Bobby Brown bb@gmail.com 


+с056042 05.05.2021 Jessica Gray jg@gmail.com 
fc85b842 17.05.2021 Jessica Gray jgray@mail.com 
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SCD Туре 2 
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format = { 

пате = 'id', type = ‘string’ ), 
пате = '"version', type = "unsigned' ), 
пате = "пате", type = ‘string’ ), 
пате = 'ета11', type = 'string' ) 

= box.schema.space.create(name) 
format(format) 


create_index('id', 4 parts = ( 114", 'мегз5іоп"' ))) 
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local function: get_last(self, 14) 
return self.space.index.id:max({ id }) 
end 


local function: get_all(self, 14) 
local гез = () 
Фог._, м іп 5е1е.расе:ра1г5(4 14 ), 'ВЕО') до 
table.insert(res, м) 
епа 
return ге5 
епа 
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local. function insert(self, ргобіїе) 
profile.version = clock.time64() 
self.space:insert(flatten(profile)) 
end 


local function: update(self, 14, updates) 
table.insert(updates, 1 '=', ‘version’, clock.time64() )) 
local. t-= get_last(self, 14) 
self.space:insert(t:update(updates)) 

end 
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Почему версия - зто время? 


- Исторические срезы: можно посмотреть, 
как выглядела БД в определенное время 


- Устойчиво к конфликтам репликации 
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Нормальная работа системы 


Master Replica 


a 


- Данные идут на мастер 


- Отмастера данные дублируются на реплику 
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Мастер стал недоступен 


Master Master' 


са» ёс» 
= > = 
x 


СО 


- Выбран новый мастер 
- Неудавшиеся запросы будут перенаправлены на 
новый мастер 
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Старьй мастер стал доступен 


Master Replica 


- Происходит обмен данными до состояния, когда 
наборы данных на мастере и реплике будут идентичны 


- Если на мастере и реплике окажется запись с одним и 
тем же первичным ключом, то это приведет к 
конфликту репликации 
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SCD Туре 2 


+ Полная история 
+ Прост в реализации 
- Есть избьточность 


- Страдает производительность 
аналитических запросов из-за 
необходимости определения актуальной 
версии 
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5СО Туре 2 


Добавляєтся новая запись 


de4c8987 01.05.2021 Bobby Brown bb@gmail.com true 
fc85b842 05.05.2021 Jessica Gray jg@gmail.com false 
+с056042 17.05.2021 Jessica Gray jgray@mail.com true 
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SCD Туре 2 


+ Полная история 
- Есть избыточность 


- Страдает производительность обновления 
данных из-за необходимости обновлять 
предыдущую запись 
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5СО Туре 2 


Добавляєтся новая запись 


СИС ВИС ВИС lei 


de4c8987 01.05.2021 null Bobby Brown bb@gmail.com 
+с056042 05.05.2021 17.05.2021 Jessica Gray jg@gmail.com 
+с056042 17.05.2021 null Jessica Gray jgray@mail.com 
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SCD Туре 2 


+ Полная история 
- Есть избыточность 


- Страдает производительность обновления 
данных из-за необходимости обновлять 
предыдущую запись 
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SCD Туре 2 


Добавляєтся новая запись 


за [stare end ne ееп [current 


de4c8987 01.05.21 null Bobby Brown bb@gmail.com true 
+с056042 05.05.21 17.05.21 Jessica Gray jg@gmail.com false 
Тс050942 17.05.21 null Jessica Gray jgray@mail.com true 
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SCD Туре 2 


Полная история 

Можно завершать жизненный цикл серии 
изменений без удаления 

Есть избыточность 

Страдает производительность обновления 
данных из-за необходимости обновлять 
предыдущую запись 
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5СО Туре 3 


Для изменяемых значений добавляется новая 
колонка 


за nme СТАС lit 


de4c8987 Bobby Brown bb@gmail.com bb@gmail.com 
+с056042 Jessica Gray null jg@gmail.com 

за nme ОО ОО 
de4c8987 Bobby Brown bb@gmail.com bb@gmail.com 
Тсд50042 Jessica Gray jg@gmail.com jgray@mail.com 
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5СО Туре 3 


local-format - { 


{ name = 'id', type = ‘string’ ), 
{ пате = ‘name’, type = ‘string’ }, 
{ name = 'old_email', type = ‘string’, 15 nullable = true ), 
{ пате = ‘email’, type = ‘string’ ) 


space = box.schema.space.create(name) 
space: format (format) 
space:create_index('id', {-parts- = ( '1а' ))) 
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local-function-clear_old(t) 
return t:update({{- '=',-"old_email', box.NULL-}}) 
end 


local function: get_last(self, 14) 
local Е = self.space:get({ id )) 
return -clear_old(t) 

end 


local function: get_all(self, 14) 
local t = self.space:get({-id-}) 
11. 2. оја ета1] == па] Ећеп return. ( 8 } епа 


local old = t:update({{ '=', ‘email’, t.old_email-}}) 


return {-clear_old(t), с1еаг о14(014) ) 
end 
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5СО Туре 3 


local. function insert(self, -profile) 
self.space:insert(flatten(profile)) 
end 


local function: update(self, 14, updates) 
local. t-= get_last(self, 14) 


for -_, -u-in-ipairs(updates) до 
if ці2) == 'ета11' -then 
table.insert(updates, ( '=', 7014 ета11", .ета11 }) 
епа 
епа 


self.space:replace(t:update(updates)) 
end 
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SCD Туре 3 


+ Не хранятся неизмененные значения 


- Ограниченная история 


* Хорошо работает вместе с 4 типом, если требуется быстро определять 
предыдущее значение, например, предыдущий статус задачи 
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SCD Туре 4 


Добавляется таблица с историей 


за [version пе [вы O 
de4c8987 01.05.2021 Bobby Brown bb@gmail.com 
Тсд50042 17.05.2021 Jessica Gray jgray@mail.com 


Историческая таблица 


Тс050042 05.05.2021 Jessica Gray jg@gmail.com 


М HighLoad 
(нь) Напао 


5СО Туре 4 
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local-format · = { 


{ name = 'id', type = ‘string’ ), 
{ пате = 'version', type = ‘unsigned’ ), 
{ пате = 'name', type = 'string' ), 
{ пате = ‘email’, type = ‘string’ ) 


space = box.schema.space.create(name) 
space:format(format) 
space:create_index('id', 4 parts = ( 'id' ))) 


history_space = box.schema.space.create(name .. "_history") 
history_space:format(format) 
history_space:create_index('id', 4 parts = ( 114", 'мегзіоп"' ))) 
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5СО Туре 4 


local: function: get_last(self, 14) 
return self.space:get({-id-}) 
end 


local function: get_all(self, 14) 
Тоса1 res = -{-get_last(self, id) ) 
for-_,-v-in-self.history_space:pairs({-id-},-'REQ')-do 
table.insert(res, м) 
end 
return res 
end 
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local function insert(self, profile) 
self.space:insert(flatten(profile)) 
end 


local function: update(self, 14, updates) 
local t-=-get_last(self, 14) 
self.space:replace(t:update(updates)) 
end 
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space:before_replace(function(old, пем) 
if-old--=.nil-then 
history_space:insert(old) 
end 


return: пем: ирда*е({{. '=', version_field, clock.time64() ))) 
end) 
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SCD Туре 4 


Полная история 
+ Быстрый поиск по актуальным данным 


Возможно хранение истории только 
обновляемых полей 


+ Возможно хранение истории в холодном 
хранилише 

Обновление требует записи в две таблицы 
Присутствует избыточность 


+ 


+ 
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Базовые типы 


Type 0 
Туре 1 
Туре 2 
Туре 3 
Туре 4 


Оригинал не изменяется 
Хранятся актуальные значения 
Добавляется новая запись 
Добавляется новая колонка 


Добавляется историческая таблица 


Все остальные типы являются комбинацией базовых 


41 
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5СО Туре 5, 6, /,... 


- I'm trying to understand how SCD Туре 5,6 & 7 work. ... ... ... 
However, I'm still unable to understand how type 5 & 7 
work and when to use them. 

- | wouldn't worry too much - all the types above Type З have 
been called Type 6 at various times. Basically there are a 
range of techniques to deal with more complex history 
tracking, and it is up to you to pick the mix that works for 
your situation. 

https://stackoverflow.com/questions/43197559/understandin 


g-slowly-changing-dimension-scd-type-5-and-7-with-examples 
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SCD Туре 5 (1 + 4) 


- Дополнительная таблица для быстро 
изменяющихся атрибутов, как в типе 4 


- Ключ, ссылающийся на дополнительную 
таблицу, перезаписывается, как в типе 1 


* Из соображений производительности внешняя таблица может быть встроена в 
базовую 
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SCD Туре 6 (1+2 + 3) 


- Добавляется новая запись (Туре 2) 
- Добавляется колонка для актуального значения (Туре 3) 


- При обновлении записи обновляется поле у всех 
предыдуших записей 


39 |мегѕіоп name | | |һіѕ%огу айдгеѕѕ current_address 


de4c8987 01.05.21 Bobby Brown Benin, Wadeside Benin, Wadeside 
+с056042 05.05.21 Jessica Gray Samoa, Bushport Tonga, East Joy 
fc85b842 17.05.21 Jessica Gray Tonga, East Joy Tonga, East Јоу 
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SCD Type 6 


+ Полная история 


+ Получение актуального значения 
зффективно 


- Обновление требует обновления всех 
предыдущих версий 
- Присутствует избыточность 


11 HighLoad 
45 (цо 


SCD Туре / 


Альтернатива типу 6 
ia [version [name [address 
de4c8987 01.05.21 Bobby Brown Benin, Wadeside 
+с056042 05.05.21 Jessica Gray Samoa, Bushport 
fc85b842 17.05.21 Jessica Gray Tonga, East Joy 


current_address 


de4c8987 Benin, Wadeside 
Тсд50042 Tonga, East Јоу 


46 


М HighLoad 


SCD Type 6 


+ Полная история 

+ При обновлении не требуется изменять все 
предыдущие версии 

- Обновление требует записи в две таблицы 


- Присутствует избыточность 
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Спасибо! 


Максим Тремпольцев 
mt@devexp.ru 


Код примеров доступен на: [=] 
https://github.com/mtrempoltsev/highload2021 versionin 
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